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摘 要 : 在 海量 音乐 中 ， 如 何 根据 用 户 的 历史 收听 记录 分 析 用户 需 求 以 实现 歌曲 推荐 是 音乐 推荐 领域 具有 挑战 性 课题 
之 一 。 现 有 的 音乐 推荐 方法 仅 简单 将 用 户 听 过 的 所 有 音乐 均 作 为 音乐 推荐 的 上 下 文 ， 导 致 不 同类 型 音乐 学 习 到 的 上 下 
文 权重 分 配 相 同 ， 其 严重 影响 了 音乐 推荐 精度 。 针 对 此 问题 ， 提 出 了 一 种 基于 注意 力 机 制 的 音乐 深度 推荐 方法 ， 针 对 
不 同 用 户 的 历史 收听 音乐 动态 分 配 不 同 的 注意 力 ， 即 学 习 出 不 同 的 上 下 文 权重 ， 使 推荐 结果 更 符合 用 户 的 实际 偏好 。 

通过 在 公开 音乐 数据 集 Million Song Dateset 上 的 测试 ， 所 提 方 法 的 推荐 准确 率 有 很 大 的 提升 。 
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Music recommendation algorithm based on attention mechanism 
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(School Electronics & Information Engineering Liaoning Technical University, Huludao Liaoning 125105, China) 


Abstract: In the mass music, how to analyze the user's needs according to the user's history listening record to implement song 


recommendation is one of the challenging topics in the music recommendation field. The existing music recommendation 


method simply uses all the music the user has heard as the context of the music recommendation, which results in the same 


weight distribution of contexts learned by different types of music, which seriously affects the accuracy of the music 


recommendation. In response to this problem, this paper proposed a music recommendation method based on attention 


mechanism, which dynamically allocated different attentions to different users' historical listening music, that was learns 


different contextual weights so as to make the recommendation result more in line with the user's actual preference . And through 


the test on public music dataset named Million Song Dateset, the recommended accuracy of the method proposed in this article 


has greatly improved. 
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@ = Lesa ak (3) 

在 非 线 性 隐藏 层 使 用 Relu 作为 激活 函数 , 首先 用 户 特 征 向 
量 和 待 预测 的 音乐 特征 向 量 以 及 音乐 特征 向 量 和 通过 Attention 
制 的 用 户 音乐 偏好 权重 向 量 分 别 进行 学 习 ， 然 后 并 入 到 多 层 

深度 网 络 中 。 定义 其 预测 模型 为 y, = Ssu saju s), 前 向 传播 
WEN v, =A (lsu sa), su. sa 分 别 表示 用 户 u 和 待 预 测 音乐 s 


以 及 待 预测 音乐 s 和 通过 Attention 机 制 的 用 户 音乐 偏好 权重 
的 输出 结果 ， 则 
办 (vi ) = o(wv + b,) (4) 
办 (v= o(w,, 村 +b, ,) (5) 
其 中 : h 是 层 的 深度 ; o 是 激活 函数 。 经 过 X 层 网 络 学 习 后 ， 
最 终 的 映射 函数 为 
Yus = 0(W,(F(w,[U,S, p] + b2)) + by) (6) 
其 中 : T RARE X- AWA BURKE. 
在 最 后 的 输出 层 ， 通 过 sigmoid 激活 函数 计算 出 的 带 预 测 
的 音乐 特征 向 量 是 符合 用 户 喜 好 的 下 一 首 音 乐 的 可 能 性 ， 预 测 
fil =|[0,1]， 定 义 似 然 函 数 为 


P(O, O7|U, S, p) = THauiyeo Yus Tu,eo-(1 = Yas) (7) 
上 式 取 似 然 负 对 数 作为 损失 函数 可 得 的 交叉 粒 损 失 函 数 为 


二 log(y,,,)+(I- y)log(I—y,,,.] (8) 
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2 ”实验 设计 和 效果 分 析 


针对 本 文 提出 的 基于 深度 学 习 和 注意 力 机 制 的 音乐 推荐 
方法 的 优越 性 验证 ， 在 Cluster 的 一 网 了 所 提出 的 


个 node 上 实现 


22 参数 设置 

在 AMNN 模型 中 ， 隐 藏 层 的 激活 函数 选用 relu 函数 ， 它 
收敛 速度 快 ， 易 于 稀疏 激活 。 模 型 最 终 的 预测 结果 为 二 进 制 分 
类 ， 所 以 使 用 sigmoid 函数 作为 最 后 输出 层 的 激活 函数 。 训 练 
过 程 中 利用 Adam 优化 方法 优化 模型 ， 因 Adam 的 优点 是 能 在 
经 过 偏 置 校正 后 ， 使 每 一 次 迭代 学 习 率 都 有 一 个 确定 范围 ， 这 
样 得 到 的 参数 比较 平稳 , 实验 中 学 习 率 设置 为 0.003。 最 后 为 防 
止 模 型 在 计算 过 程 中 出 现 过 拟 合 现 象 ， 利 用 L2 正则 化 方法 对 
网 络 参数 进行 约束 ， 并 加 入 了 dropout 策略 ， 其 中 取 dropout 
rate=0.5 。 


实验 环境 环境 配置 
操作 系统 Linux 
主 频 3.5 GHz 
内 存 96.00 GB 
编程 语言 Python 3.5 
Tensorflow 1.2.0、 
深度 学 习 框架 
Keras 2.0.5 
2.3 ”实验 结果 度量 标准 
本 文 设计 的 目的 是 为 了 给 用 户 推荐 更 加 精确 的 下 一 首 音乐 ， 


每 个 用 户 去 除 一 首 听 过 的 音乐 作为 测试 音乐 ， 然 后 在 随机 抽取 
99 首 没有 听 过 的 音乐 作为 负 例 音乐 , 这 样 每 个 用 户 共有 100 首 
音乐 作为 测试 数据 ， 从 而 组 成 一 个 待 推荐 的 音乐 列表 ， 其 中 有 


一 个 正 例 和 99 个 负 例 。 
推荐 性 能 由 命中 率 C(HR ) 和 归 一 化 折扣 累积 增益 (NDCG ) 
来 衡量 。 本 文 将 这 两 个 指标 的 排名 列表 截断 K 均 为 10。 因 此 


HR 直观 地 衡量 测试 歌曲 是 否 存 在 于 前 10 项 列表 中 , 而 NDCG 


算法 。 实 验 环 境 如 表 1 所 示 。 将 所 提出 的 AMNN 算法 与 


itemKNN.NeuMF 和 NNrec 等 推荐 算法 的 等 推荐 算法 在 同 实验 
设置 下 从 不 同 角 度 进行 了 实验 对 比 ， 最 后 对 数据 结果 进行 比 对 
分 析 和 原因 预测 。 


2.1 数据 集 
本 文 使 用 的 数据 集 是 公开 音乐 数据 集 Million Song 
Dataset(MSD) ， 它 包含 来 自 SecondHandSongs dataset 、 


musiXmatch dataset. Last.fm dataset. Taste Profile subset 、 

thisismyjam-to-MSD mapping, tagtraum genre annotations 和 Top 
MACD dataset 七 个 知名 音乐 社区 的 数据 。 而 本 文 主要 使 用 
MSD 的 核心 数据 ， 即 The Echo Nest 发 布 的 Taste Profile 子 集 ， 
它 由 三 元 组 (用户 ID、 音 乐 ID、 用 户 历史 收听 记录 ) 组 成 , 其 
中 包含 了 110 000 名 用 户 、386 213 首 歌 曲 和 1 450 933 条 用 户 
历史 收听 记录 。 为 了 提高 模型 的 训练 速度 ,在 数据 进行 预 处 理 。 
首先 对 音乐 历史 收听 记录 不 少 于 20 首 的 用 户 进行 采样 ， 从 而 
得 到 19 502 名 用 户 、115 082 首 音乐 和 390 040 条 用 户 历史 收 
听 记 录 ; 然后 实验 过 程 采取 5 折 交 叉 验 证 方案 进行 训练 和 测试 ， 
即 随机 将 数据 集 分 成 5 份 ， 并 依次 迭代 地 将 其 中 4 份 作为 训练 
集 ， 其 余 的 作为 测试 集 。 


是 用 来 衡量 排序 质量 的 指标 ， 通 过 将 较 高 分 数 指定 为 项 级 排名 
来 计算 命中 的 位 置 。 命中 率 (HR) 和 归 一 化 折扣 累积 增益 NDCG) 
的 定义 如 下 : 

命中 率 (HR) 为 


Number of Hits@K 
GT] (9) 
归 一 化 折扣 累积 增益 (NDCG) 为 
NDCG @ K = aS 2 
= log, (i+1) 
其 中 : GT 表示 测试 歌曲 与 算法 产生 的 歌曲 顺序 列表 的 全 
合 ; Zk 是 正则 化 ， 以 确保 排名 列表 中 存在 一 个 值 1; ri 是 第 i 个 
歌曲 的 预测 相关 性 。 在 评估 过 程 中 使 用 简单 的 二 进 制 表 示 : 如 
果 歌 曲 在 测试 集 x=1， 否 则 为 0。 
2.4 ”对 比 实验 
-ItemKNN"®); 基于 项 目的 协同 过 滤 标 准 方 法 , 发 现 
间 的 相似 度 ， 推 荐 类 似 的 音乐 类 型 
-NeuMF: 基于 神经 网 络 协 同 过 滤 方 法 ， 对 比 Attention 机 
出 对 推荐 效果 的 影响 ; 
-NNrec!l; 受到 在 NLP 领 


HR@K = 


(10) 


7 


音乐 之 


sr 


域 的 基于 NN 的 概率 语言 模型 的 
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H 
零售 数据 集 上 表现 出 色 。 


发 ， 最 早 被 提出 作为 下 一 个 basket 的 推荐 算法 ， 并 且 在 两 个 
售 


在 AMNN 实验 设计 中 ， 本 文选 取 用 户 历史 收听 记录 中 次 


数 的 前 天 个 作为 预测 用 
户 对 音乐 有 很 强 的 动态 性 ， 


次 数 作为 注意 力 分 析 列 表 是 可 以 的 。 
2.5 效果 分 析 


户 音 乐 偏好 的 注意 力 分 析 列 表 ， 因 为 用 
汀 着 环境、 心情 、 身 体 状 态 等 变化 ， 
但 还 是 他 的 音乐 习惯 是 较为 固定 的 ， 所 以 以 他 过 去 收听 的 歌 


为 获取 更 加 鲜明 的 实验 效果 对 比 ， 在 NNrec 和 AMNN 实 


验 中 选取 用 户 
HR( 图 3(a)) 和 NDCG( 图 


历史 收听 记录 的 前 10 首 音乐 。 通 过 推荐 性 能 
3 人 b)) 的 效果 图 中 ， 可 以 看 到 随 着 天 的 


增加 , itemKNN 始终 最 差 , 与 其 作 比 较 , NeuME 可 以 达到 0.657 


8 和 0.453 7， 而 NNrec 要 比 它 


是 高 3.4% 和 2.3%， 但 是 AMNN 


BELL NNrec 还 提高 1.6% 和 4.2%。 因 此 验证 了 AMNN 优 于 现 有 


方法 ， 可 以 提高 推荐 质量 。 


图 3(b) 


一 人 一 Nivec 
一 中 一 NeuMF 
SF omk 
=*@= AMNN 


图 3 TOP-K 值 对 模型 推荐 性 能 的 影响 


本 文 也 考虑 到 历史 收听 列表 中 的 音乐 数量 可 能 是 影响 实验 
效果 的 一 个 重要 因素 。 接 下 来 ， 对 融入 AM 的 AMNN 与 未 融 


入 AM 的 DNN 作对 比 ， 
效果 见 图 4。 对 于 本 文 使 | 


其 中 K 取 为 10， 最 终 得 到 了 证 明 。 其 
的 数据 集 来 说 ， 获 取 的 用 


户 历 史 音 


乐 收听 记录 在 15 首 左右 时 就 可 以 更 好 地 学 习 到 用 户 的 个 人 音 


乐 偏好 ， 而 未 融入 AM 的 DNN 实验 


只 有 获取 越 多 的 用 户 历 史 


音乐 收听 记录 才能 更 好 地 学 习 ， 验 证 了 AMNN 可 以 在 获取 用 


户 的 部 分 收听 记录 情况 下 就 能 学 习 到 
氏 了 计算 复杂 度 。 


的 音乐 偏好 ， 从 而 降 


用 


3 


基于 深度 学 习 的 音乐 推荐 算法 中 加 入 能 够 为 


0.695 


Number of songs in music list 


图 4(a) 
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图 4(b) 


图 4 历史 收听 列表 中 的 音乐 数量 对 模型 推荐 性 能 的 影响 


结束 语 


种 基于 注意 力 机 制 的 音乐 深度 推荐 方法 ， 在 
户 分 配 不 同音 乐 


本 文 提出 了 


偏好 权重 的 注意 力 机 制 来 实现 更 准确 的 推荐 。 通 过 在 MSD 数 
据 集 上 实验 表明 ,Attention 机制 对 提高 推荐 精度 有 一 定 的 效果 ， 


在 一 定 程 度 上 使 对 用 


户 的 兴趣 偏好 的 分 析 更 有 可 解释 性 。 在 


未 来 工作 中 ， 将 考虑 多 种 注意 力 机 制 〈 如 局 部 注意 力 机 制 ) 对 


用 


站 偏好 获 


取 的 影响 ,并 融入 到 基于 深度 学 习 的 音乐 推荐 算法 ， 


进 


步 提高 推荐 质量 。 


参考 文献 : 


[1] 


KA. 公共 环境 下 的 混合 型 音乐 推荐 系统 的 关键 技术 研究 [I]. 计算 
机 应 用 研究 , 2012, 29 (11): 4250-4253. (Chen Yaqian. Research on key 
technologies of hybrid music recommendation system in public environment 
[J]. Application Research of Computers, 2012, 29 (11): 4250-4253. ) 


[J]. 计算 机 应 用 研究 , 2018, 35 (4) . (Teng Shaohua, Zheng Ming, Liu 


AHA, MAT. 面向 音乐 推荐 的 全 变 差 图 非 负 和 王 阵 分 解 方法 


Dongning. Non-negative matrix factorization method for total variation 
maps for music recommendation [J]. Journal of Computer Applications, 
2018, 35 (4). ) 

Wan Shengxian, Lan Yanyan, Wang Pengfei, et al. Next basket reco- 
mmendation with neural networks [C]// Proc of RecSys Posters. 2015: 1- 
4. 

Hsu K C, Chou S Y, Yang Y H, et al. Neural network based next-song 
recommendation [J]. Computer Science. 2016: 35-40. 

Zhang Shuai, Yao Lina, Sun Aixin. Deep learning based recommender 
system: a survey and new perspectives [Z]. 2017: 182-187. 

Covington P, Adams J, Sargin E. Deep neural networks for youtube re- 


commendations [C]// Proc of the 10th ACM Conference on Recommender 


录用 稿 


Systems. 2016: 191-198. 

[7] Okura S, Tagami Y, Ono S, et al. Embedding-based news recomm-endation 
for millions of users [C]// Proc of the 23rd ACM SIGKDD International 
Conference on Knowledge Discovery and Data Mining. 2017: 1933-1942. 

[8] Van Den Oord A, Dieleman S, Schrauwen B. Deep content-based music 
recommendation [C]// Advances in Neural Information Processing Systems. 
2013: 2643-2651. 

[9] Liang D, Zhan M, Ellis D P W. Content-aware collaborative music 
recommendation using pre-trained neural networks [C]// Proc of ISMIR. 
2015: 295-301. 

[10] Larochelle H, Hinton G E. Learning to combine foveal glimpses with a third- 
order Boltzmann machine [C]// Advances in Neural Information Processing 
Systems. 2010: 1243-1251. 

[11] Denil M, Bazzani L, Larochelle H, et al. Learning where to attend with deep 
architectures for image tracking [J]. Neural Computation, 2012, 24 (8): 
2151-2184. 

[12] Mnih V, Heess N, Graves A. Recurrent models of visual attention [C]// 
Advances in Neural Information Processing Systems. 2014: 2204-2212. 

[13] Luong M T, Pham H, Manning C D. Effective approaches to atten-tion-based 


neural machine translation [C]// Proc of EMNLP. 2015: 34-41. 


KEW, F: 


[14] Bahdanau D, Cho K, Bengio Y. Neural Machine translation by jointly 
learning to align and translate [J]. Computer Science, 2014: 394-402. 

[15] Zhai Shuangfei, Chang Kenghao, Zhang Ruofei, et al. Deepintent: learning 
attentions for online advertising with recurrent neural networks [C]// Proc 
of the 22nd ACM SIGKDD International Conference on Knowledge 
Discovery and Data Mining. 2016: 1295-1304. 

[16] Zhang Qi, GongYeyun, Wu Jindou, et al. Retweet prediction with attention 
based deep neural network [C]// Proc of the 25th ACM International on 
Conference on Information and Knowledge Management. 2016: 75-84. 

[17] Vall A, Eghbal-zadeh H, Dorfer M, et al. Music playlist continuation by 
learning from hand-curated examples and song features [C]// Proc of the 2nd 
Workshop on Deep Learning for Recommender Systems. 2017: 46-54 

[18] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering 
recommendation algorithms [C]// Proc of International Conference on World 
Wide Web. 2001: 285-295. 

[19] Vinyals O, Kaiser L, Koo T, et al. Grammar as a foreign language [J]. Eprint 
Arxiv, 2014: 2773-2781. 

[20] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly 


learning to align and translate [J]. Computer Science, 2014: 738-745. 


